Dự án Dự án bản đồ gen người

Tiền đề

Sự bắt đầu của dự án là kết quả của công việc nhiều năm được hỗ trợ bởi Bộ Năng lượng Mỹ, trong các workshops vào 1984 [2] và 1986 và tuyên bố quan trọng kèm theo của Bộ Năng lượng Mỹ (US Department of Energy).[3] Bản báo cáo năm 1986 tuyên bố vững chắc rằng, "Mục tiêu cuối cùng của sự kiện này là tìm hiểu về bộ gen Người" và "Sự hiểu biết về bộ gen Người là cần thiết đối với quá trình phát triển của y khoa và các ngành khoa học sức khỏe khác như tri thức về giải phẫu người." Tham khảo thêm [4]

James D. Watson từng là người đứng đầu Trung tâm Quốc gia về Nghiên cứu gen Người (National Center for Human Genome Research) tại Viện Sức khỏe Quốc gia (National Institutes of Health - NIH) ở Mỹ bắt đầu từ năm 1988. Chủ yếu vì bất đồng với ông chủ của mình, Bernadine Healy, về việc bản quyền gen nên ông đã buộc phải từ chức vào năm 1992. Thay thế ông là Francis Collins vào Tháng Tư 1993, và tên của trung tâm đổi thành Viện Nghiên cứu Bản đồ Gen Người Quốc gia (National Human Genome Research Institute - NHGRI) vào năm 1997.

Nguồn quỹ dự án đến 3 tỉ đôla được thành lập năm 1990 bởi Bộ Năng lượng Mỹ và Viện Sức khỏe Quốc gia Mỹ, với thời gian ước tinh 15 năm. Bên cạnh đó, còn có sự góp mặt của các nhà di truyền học từ Trung Quốc, Pháp, Đức, Nhật, và Vương Quốc Anh.

Nhờ vào sự hợp tác quốc tế rộng rãi và những cái tiến trong lĩnh vực gen học (genomics) (đặc biệt trong phân tích trình tự), cũng như những đột phá lớn trong kĩ thuật máy tính, phiên bản đầu tiên của bộ gen đã cho ra đời năm 2000 (được đồng tuyên bố bởi tống thống Mỹ Bill Clinton và Thủ tướng Anh Tony Blair vào ngày 26 Tháng Sáu, 2000).[5] Và tiếp đến là phiên bản hoàn thiện được công bố Tháng Tư 2003, sớm hơn 2 năm so với dự định.[6] Vào Tháng Năm 2006, một dấu mốc lớn đã đến trong quá trình hoàn thiện dự án, khi mà trình tự của chromosome cuối cùng đã được công bố trên tạp chí Nature.[7]

Một thống kê minh họa của dự án cho thấy hầu hết bộ gen người đã được xác định trình tự vào cuối 2003. Tuy nhiên, vẫn còn một số vùng trong bộ gen người có thể được xem là chưa hoàn thành việc xác định trình tự. Đầu tiên là vùng trung tâm của mỗi nhiễm sắc thể (chromosome), còn gọi là tâm động (centromeres), là các chuỗi DNA có độ trùng lặp cao và rất khó để xác định trình tự dùng các kĩ thuật hiện nay. Tâm động gồm hàng triệu (có thể vài chục triêu) cặp bazơ (base pair), và chúng hầu như chưa được xác định trình tự. Tiếp đến là phần cuối của các nhiễm sắc thể, gọi là telomeres, cũng là có độ trùng lặp cao, và hầu hết phần cuối của 46 chromosome cũng chưa được xác định trình tự. Thứ ba là có nhiều vị trí (loci) trong bộ gen mỗi cá nhân có chứa các gen trong các họ gia đình đa gen (multigene families) mà rất khó để hiểu rõ cấu trúc khi dùng kĩ thuật xác định trình tự shotgun - những họ đa gen này thường mã hóa cho các protein đóng vai trò quan trọng cho miễn dịch. Vì thế, có lẽ là centromeres và telomeres sẽ vẫn chưa được xác định trình tự cho tới khi có một kĩ thuật mới được phát triển hỗ trợ cho việc xác định trình tự chúng. Ngoài ra, có vài tá các khoảng trống (gap) nằm rải rác trong bộ gen mà một số trong chúng là khá lớn, và hi vọng là có thể kết thúc việc xác định trình tự các khoảng trống trong vòng vài năm tới.

Bản đồ gen đã được hoàn thành vào tháng 4 năm 2003.

Mục đích

Mục đích của dự án HGP là không chỉ xác định trình tự của hơn 3 tỉ cặp gốc (base pairs) trong bộ gen người với tỉ lệ lỗi nhỏ nhất, mà còn phải xác định cho được các gen trong khối dữ liệu khổng lồ đó. Mảng này của dự án vẫn còn được tiếp diễn, vì với số lượng tính toán ban đầu thì hiện có khoảng 22.000–23.000 genes trong bản đồ gen người,[cần dẫn nguồn] một con số nhỏ hơn so với dự tính của các nhà khoa học.[cần dẫn nguồn]

Một mục tiêu khác là phát triển các phương pháp nhanh hơn, hiệu quả hơn để xác định trình tự DNA và phân tích trình tự.

Trình tự của các DNA người được lưu trữ trong các cơ sở dữ liệu có thể truy cập từ Internet. Trung tâm Thông tin Công nghệ sinh học Quốc gia (National Center for Biotechnology Information) (và các tổ chức tương tự ở châu Âu và Nhật bản) lưu giữ chuỗi trình tự gen trong cơ sở dữ liệu có tên gọi là Genbank, cùng với các chuỗi gen và protein giả định và đã được biết. Các tổ chức khác như University of California, Santa Cruz , và Ensembl cung cấp thêm các dữ liệu bổ sung kèm các chú thích (annotation) và các công cụ hữu hiệu để hiển thị và tìm kiếm nó. Các chương trình máy tính cũng được phát triển để phân tích dữ liệu, vì các dữ liệu này rất khó trích rút thông tin nếu không có các chương trình này.

Quá trình xác định ranh giới giữa đoạn mã hóa gen và đoạn mã hóa cho các chức năng khác trong chuỗi DNA thô ban đầu được gọi là genome annotation và là một lĩnh vực trong tin sinh học. Trong khi các nhà sinh học đang có gắng tạo ra những lời chú thích tốt nhất, quá trình này diễn ra rất chậm chạp, và các chương trình máy tính ngày càng đáp ứng nhu cầu tốc độ dữ liệu vào cao của các dự án xác định trình tự bộ gen. Kĩ thuật tạo chú thích tốt nhất hiện nay dùng các mô hình thống kê có sử dụng sự song song giữa các chuỗi DNA và ngôn ngữ con người, dùng khái niệm từ khoa học máy tính ví dụ văn phạm hình thức (formal grammar).

Bộ gen của hai người khác nhau là khác nhau. Vì thế, dữ liệu được công bố của dự án không đại diện chính xác chuỗi của một hay mọi bộ gen người nào cả. Nó là bản đồ gen kết hợp từ nhiều người vô danh cung cấp. Vì thế, không thể sử dụng dữ liệu này để xác định sự khác biệt về bộ gen giữa 2 cá thể. Thay vào đó, dự án phục vụ cho mục đích này là HapMap.

Cách thức tiến hành

Mỗi tế bào con người chứa một nhân bên trong với 46 chromosome. Mỗi một chromosome chứa khoảng 30.000 đến 50.000 gen và các chuỗi không mã hóa xen kẽ. Cách đơn giản nhất để nghiên cứu các gen là dựa trên từng nucleotide một (A, T, G, X). Và cữ mỗi hai nucleotide thì tạo thành một cặp gốc (base pair). Các nhà khoa học ước tính có khoảng 3 tỉ cặp gốc như vậy.

Nguồn quỹ của dự án đến từ Chính phủ Mỹ thông qua Viện Sức khỏe Quốc gia tại Mỹ và các tổ chức Từ thiện tại Anh, tổ chức Wellcome Trust tài trợ cho Viện Sanger (mà sau này là Trung tâm Sanger) tại Anh Quốc, cũng như nhiều nhóm khác trên khắp thế giới. Bộ gen được chia nhỏ thành từng đoạn ngắn hơn; khoảng 150.000 cặp gốc mỗi đoạn. Những đoạn này gọi là "bacterial artificial chromosome", hay BAC, vì chúng có thể được chèn vào trong vi khuẩn và có thể được nhân đôi lên bằng bộ máy nhân đôi DNA bên trong vi khuẩn. Điều này có nghĩa là, cho dù bộ gen của các loài có khác nhau về độ phức tạp gì đi nữa, cơ chế hoạt động trong quá trình sinh học bên trong (cụ thể là nhân đôi DNA) đều giống nhau. Mỗi đoạn như vậy sau đó sẽ được xác định trình tự riêng lẻ dùng kĩ thuật "shotgun" và sau đó chúng sẽ được lắp ghép lại với nhau. Hướng này gọi là hướng tiếp cận "shotgun phân cấp" (hierarchical shotgun).